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摘 要 : 半 正 定 约束 度量 学 习 (PCML)， 作 为 一 种 结合 了 支持 向 量 机 (SVM) 的 典型 度量 学 习 方 法 ， 在 图 像 识 别 和 行人 

重 识别 领域 展现 了 优越 的 性 能 。 然 而 ， 在 每 次 学 习 度 量 和 矩阵 的 过 程 中 ， 该 方法 只 简单 的 考虑 不 同类 别 样本 之 间 的 最 

大 间隔 ， 忽 略 了 同一 类 别 间 的 样本 特征 空间 也 在 发 生变 化 。 基 于 此 ， 提 出 了 一 种 基于 数据 内 在 结构 特征 的 度量 学 习 

oy HA, 5 PCML 相 比 ， 提 出 的 方法 不 仅 考 虑 了 不 同类 别 样 本 之 间 的 间隔 ， 而 且 考虑 了 相同 类 别 样 本 间 的 类 内 

度 矩 阵 ， 使 学 习 到 的 度量 矩阵 有 更 强 的 鉴别 能 力 。 其 次 ， 进 一 步 将 Li-norm 损失 有 函数 转换 为 L2-norm HHA HH, 

BATHA SR 高 模型 的 泛 化 性 能 。 最 终 ， 在 多 个 数据 集 上 的 实验 结果 表明 ， 多 数 情况 下 提出 的 方法 相 比 于 其 他 
量 学 习 方 法 取得 了 更 优异 的 性 能 。 
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Metric learning based on intrinsic structural characteristics of data 
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Abstract: Positive-semidefinite constrained metric learning (PCML) , as a typical metric learning method combined with 
support vector machine (SVM) , exhibits superior performance in image recognition and person re-identification. However, 
in the process of learning the metric matrix, this method simply considers the margin between samples of different categories, 
ignoring that the feature space of samples of the same category also changes. To this end, this paper proposes a metric learning 
method based on the intrinsic structural characteristics of data. First of all, compared with PCML, the method not only 
considers the margin between samples of different categories, but also considers the intra-class divergence matrix of samples 
of the same category, so that the learned metric matrix has stronger discrimination ability. Secondly, this paper further 
transforms the Ll-norm loss function into the L2-norm loss function, which can further improve the generalization 
performance of the model. Finally, the experimental results on multiple datasets show that the proposed method achieves 
better performance than other methods in most cases. 
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= 0 als 能 。 马 氏 距 离 学 习 代 表 人 性 的 方法 有 邻 域 成 分 分 析 
一 = (neighborhood components analysis, NCA)UU、 大 间隔 最 近邻 

过 去 的 十 年 ， 度 量 学 习 引 起 了 学 术 界 以 及 工业 界 越 来 越 (large margin nearest neighbors, LMNN)D21、 信息 \ 论 度量 学 习 
多 的 关注 。 度 量 学 习 或 称 相似 性 度量 学 习 是 机 器 学 习 中 一 个 (information theoretic metric learning, ITMIL)J03、 简 单 直接 的 
新 兴 的 研究 领域 ， 它 则 在 通过 训练 去 学 习 一 个 有 效 的 度量 ， 度量 学 习 (keep it simple and straight forward metric learning， 
使 其 能 够 减 小 同类 样本 之 间 的 距离 ， 同 时 增 大 不 同类 别 样本 KISSME)04 等 。 这 些 方法 几乎 都 是 通过 利用 样本 点 之 间 的 部 
之 间 的 距离 。 度 量 学 习 在 计算 机 视觉 中 有 着 广泛 的 应 用 ， 其 分 经 验 知识 来 优化 马 氏 距离 ， 例 如 ， 它 们 将 不 同类 别 中 的 样 


PERAR BRRR, AWRA 聚 类 ”本 点 之 间 的 距离 限制 为 大 于 相同 类 中 的 样本 点 之 间 的 距离 。 
中 行人 重 识别 -10 等 领域 。 由 于 实际 的 应 用 中 样本 的 类 间 相 ”从 理论 的 角度 分 析 ， 上 面 的 这 些 方法 都 能 很 好 地 推广 到 不 可 
似 性 和 类 内 差异 性 ， 这 使 得 如 何 获 得 一 个 有 效 的 度量 成 为 了 见 数据 ， 它 们 通过 修改 损失 函数 或 者 整合 正则 化 的 方案 ， 以 
当前 研究 者 面临 的 巨大 挑战 。 避免 过 拟 合 现象 的 发 生 。 

目前 度量 学 习 的 研究 主要 集中 在 马 氏 距离 学 习 ， 其 主 近年 来 , 核 学 习 方法 已 经 广泛 的 应 用 到 一 些 学 习 任务 中 ， 
目的 是 找到 特征 空间 的 全 局 线性 变换 ， 强 调 相关 维度 ， 售 弃 ” ”例如 半 监 督学 习 、 多 实例 学 习 、 多 任务 学 习 等 (%!。 支 持 向 


不 相关 维度 。 由 于 马 氏 度量 集 与 多 元 高 斯 度量 集 之 间 存 在 双 量 机 (support vector machine, SVMJIL7， 作 为 典型 的 核 学 习 方 
射 关 系 001， 因 此 可 以 用 相应 的 协 方差 矩阵 来 表示 。 此 外 ， 马 法 ， 在 许多 实际 应 用 中 展现 了 良好 的 泛 化 性 能 ， 而 且 有 很 多 
氏 距 离 通 过 允许 特征 空间 的 任意 线性 缩放 和 旋转 来 推广 欧 氏 关于 核 学 习 方法 的 开放 资源 ， 包 括 各 种 工具 箱 和 库 已 经 发 布 
度量 ， 相 比 于 传统 的 欧 氏 度量 ， 马 氏 距 离 学 习 到 的 度量 矩阵 了 08-231。 因 此 ， 对 于 研究 者 来 说 ， 探 索 如 何 利用 核 方法 资源 
更 强 的 鉴别 能 力 ， 在 许多 实际 问题 中 展现 出 了 优越 的 性 来 研究 和 开发 新 的 度量 学 习 方 法 是 非常 重要 的 。 最 近 ， 一 些 
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录用 定稿 张 开 放 ， 

研究 工作 请 5 党 试 去 探索 度量 学 习 和 SVM 之 间 的 关系 ， 想 
利用 SVM 的 大 间隔 原理 去 开发 新 的 度量 学 习 方法 ， 其 中 ， 
文献 [26] 提 出 一 种 结合 SVM 的 度量 学 习 算 法 (positive- 


semidefinite constrained metric learning, PCML)， 它 将 度量 学 
习 问 题 描述 为 半 正 定 约束 的 核 分 类 问题 ， 通 过 迭代 式 训 
Zk SVM 大 间隔 分 类 器 来 指导 度量 矩阵 的 学 习 。 重 要 的 是 ， 

现 有 的 SVM 一 些 求解 器 , 如 LibSVM09, 可 以 很 方便 的 应 用 
到 求解 度量 矩阵 的 过 程 中 。 然 而 ，PCML 忽略 了 这 样 一 个 关 
键 事实 : 在 每 次 通过 迭代 式 训 练 SVM 分 类 器 去 指导 度量 算 


: 基于 数据 内 在 结构 特征 的 度量 学 


ChinaXiv 合 作 期 刊 


第 38 卷 第 3 期 


阵 的 学 习 过 程 中 ， 它 只 简单 的 考虑 不 同类 别 样本 之 间 的 最 大 
间隔 ， 忽 略 了 每 一 次 迭代 过 程 中 同一 类 别 间 的 样本 特征 空间 
的 也 在 发 生变 化 ， 这 样 限制 了 模型 泛 化 能 力 进一步 提高 。 
针对 以 上 不 足 ， 本 文 提出 了 一 种 基于 数据 内 在 结构 特征 
的 度量 学 习 方 法 。 首 先 ， 本 文 提 出 的 方法 不 仅 考虑 了 不 同类 
别 样 本 之 间 的 间隔 ， 而 且 考虑 了 相同 类 别 样本 间 的 类 内 散 度 
和 矩阵。 其 次 , 参考 文献 [27], 本 文 提 出 的 方法 进一步 将 Li-norm 
损失 函数 转换 为 L2-norm 损失 函数 ， 这 样 可 以 进一步 提高 模 
型 的 泛 化 性 能 。 此 外 ， 为 了 提升 模型 的 计算 效率 ， 本 文 使 用 
了 梯度 下 降 技 术 进 行 模型 的 求解 。 最 后 ， 在 手写 数字 识别 
人 脸 识 别 以 及 行人 重 识别 三 个 任务 共 六 个 数据 集 上 的 实验 结 
果 表 明 ， 多 数 情况 下 本 文 提 出 的 方法 相 比 于 其 他 度量 学 习 方 
法 取得 了 更 优异 的 性 能 。 


1 ”相关 工作 


为 了 建立 基于 数据 内 在 结构 特征 的 度量 学 习 模型 ， 本 节 
首先 简要 回顾 了 传统 的 度量 学 习 ， 然 后 介绍 了 半 正 定 约束 度 
量 学 习 。 

1.1 度量 学 习 
度量 学 习 旨 在 学 习 一 个 有 效 的 度量 ， 使 同类 样本 之 间 的 


不 同类 别 样本 之 间 的 距离 尽 可 能 增 大 。 其 中 
其 于 马 氏 距 离 函数 的 度量 学 习 在 计算 机 视觉 领域 引起 了 
广泛 的 兴趣 。 假 定 训练 样本 集合 {oc,y 站 =12… 站 xsR" 是 第 
i 个 训练 样本 ，» 为 相应 的 标签 ， 并 且 m 表示 样本 特征 维度 
个 数 。 则 任意 两 个 样本 x 和 之 间 的 平方 马 氏 距离 定义 为 

di (X;,¥;) = (x, —x;)" M(x, -x;) (1) 
其 中 : Me Ren 是 一 个 对 称 半 正 定 和 矩阵 ,被 称 作 度 量 和 矩阵 。 从 
式 (1) 可 以 发 现在 样本 给 定 的 情况 下 ，dw(w,x) 的 大 小 由 度量 
矩阵 M 决定 , 马 氏 距离 的 关键 就 是 学 习 度量 矩阵 M 。 对 M 进 


距离 能 够 减 小 ， 


行 平方 根 分 解 ， 即 M=GrG ， 其 中 GeR””(p<m)。 式 (1) 可 以 
转换 为 
d} xix)) = (x, —x,)"G'G(x, —x)) 
=[G(x;— xp] [G(x, -x;)] (2) 


=|Gx, -Gxi 


从 式 (CD) 中 可 以 看 出 ， 马 氏 距 离 实 际 上 寻求 一 个 线性 变 
换 ， 将 每 个 样本 x 投影 到 一 个 低 维 子 空间 Gx; ， 此 低 维 子 空 
闻 中 任意 两 个 样本 的 欧式 距离 等 价 于 原始 空间 中 的 马 氏 距离 ， 
因此 马 氏 距 离 还 可 以 视 作 标准 欧式 距离 的 推广 。 此 外 ， 式 (2) 
可 以 进一步 等 价 为 
dj, (x,,x;) =Tr(M? (x, —x;)(x; -—x))") 


其 中 : TO 表示 算 阵 的 迹 。 在 接 下 来 的 讨论 中 ， 


G3) 
本 文 将 构造 


模式 识别 和 行人 重 识别 等 领域 展现 了 优越 的 性 能 。PCML 将 
度量 学 习 问 题 表 述 为 具有 半 正 定 约束 的 核 分 类 问题 日 通 
过 和 代 式 训练 SVM 分 类 器 来 指导 度量 矩阵 的 学 习 。 给 定 上 
节 中 训练 样本 集 , 让 baoa) 分 别 表示 样本 t,x 对 应 的 特征 
向 量 ， 则 PCML 模型 的 优化 问题 可 以 表示 为 

min ZM +L, 

st. ly (dg (Ge), 6(x,))—b) 21-4, Vi j (5) 

£,20,M +0 
其 中 : C >0 为 误差 项 的 惩罚 系数 ,5 表示 松弛 变量 ,rl; 表示 
矩阵 的 Frobenius 范 数 ， 并 有 旦 5b 表示 距离 闷 值 。 此 外 ， 注 意 
du (Ax) A) 此 时 是 由 特征 向 量 所 构建 的 马 氏 距离 。 


2 基于 数据 内 在 结构 的 度量 学 习 


ASS 


本 节 首 先 构建 了 基于 数据 驱动 的 度量 学 习 模 型 ， 其 


模型 的 构建 


介绍 了 模型 的 求解 过 程 ; 最 后 给 出 了 型 的 分 类 方法 。 
2.1 


次 详 


PCML 利用 SVM 的 大 间隔 原理 来 指导 马 氏 距离 中 度 
矩阵 的 更 新 ， 相 比 于 传统 没有 结合 SVM 的 度量 学 习 有 
强 的 模型 泛 化 能 
间隔 ， 
结构 信息 。 
隔 有 关 ， 
之 间 差 异 比较 大 的 时 候 ， 


。 然 而, SVM 旨 在 最 大 化 不 同类 别 之 
只 考虑 了 超 平面 边界 上 的 样本 点 ， 忽 略 了 数据 的 
事实 上 ， 模 型 的 泛 化 能 力 不 仅 与 样本 类 别 间 


还 与 数据 


在 这 种 情况 下 同类 样本 间 的 距 


较 大 ， 给 PCML 算法 带 来 了 巨大 的 挑战 。 


针对 以 上 问题 ， 本 文 提出 了 一 种 基于 数据 内 在 结构 


量 学 习 模型 。 


一 方面 , 它 不 仅 利 


且 还 整合 了 相同 类 别 样本 间 的 类 内 散 度 矩 阵 
类 样本 间 的 距离 更 加 近 。 
函数 转换 为 [2-norm 损失 函数 ， 这 样 可 
泛 化 性 能 。 


示 符 阵 WM 按 列 组 合成 的 列 向 量 ， 


(BaD -paaa 按 列 组 合成 的 列 向 量 ， 其 视 作 新 的 特征 


， 这 样 使 得 
Al, AICI Li-norm 
以 进一步 提高 模 


男 一 方 


首先 针对 PCML 模型 ， 这 里 先进 行 一 个 的 转换 ， 让 


向 量 。 基 于 此 ， 可 以 将 PCML 优化 问题 转换 为 


Pan 
min—w7?w+C s 
moe 2 之 多 


st. 1, (w?—b) >1-E,,€, > 0, Vi, j 
M>0 


wT? = di, (Gx)— x))) 
=Tr(M? (g) -pap ($x) -Gx))) ) 


表示 矩阵 


及 里 
着 更 
闻 的 
内 在 
的 间 


内 在 结构 信息 有 关 ， 尤 其 是 当 同 类 样本 


离 比 


的 度 


了 SVM 的 大 间隔 原理 , 而 


同一 
损失 
型 的 


w 表 


(6) 


(7) 


此 时 PCML 模型 可 以 看 做 一 个 软 间隔 SVM 优化 问题 ， 


最 终 本 文 在 此 基础 上 整合 了 相同 类 


样本 对 标签 ， 这 里 用 集合 
类 标签 ， 集 合 P={(%， 


终 ， 建 立 如 下 相似 对 


5={(xi,x))} 表示 样本 *, x) 有 相同 的 

x) RREK o x) 有 不 同 的 类 标签 。 最 

标签 和 不 相似 对 标签 : 
if (x,,x,)eD 

， if(x,xes 


(4) 


12 半 正 定 约束 度量 学 习 
PCML, ， 作 为 一 种 结合 了 SVM 的 


型 度量 学 习 方法 , 在 


别 样本 间 的 类 内 散 度 矩阵 ， 


并 且 将 Li-norm 损失 函数 转换 为 L2-norm 损失 函数 ， 最 终 建 
立 如 下 的 优化 模型 
min w”Sw +063 
s.t. Liye eee >0,Vi, j (8) 
M 0 
其 中 s 为 类 内 散 度 和 矩阵， 其 定义 如 下 : 
S= x (¥ -m (č —m,)* (9) 
其 中 : RRIARI bE RPE ee ZA MSE, m FLX 
的 均值 向 量 ， 即 : 
1 
“Wh 2 (10) 
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录用 定稿 张 开 放 ， 
这 里 入 表示 ,集合 中 特征 向 量 的 个 数 ,图 1 中 概括 了 本 
文 提 出 的 度量 学 习 模 型 。 首 先 对 输入 样本 集 进行 特征 提取 ， 


得 到 有 效 的 特征 向 量 ， 然 后 构造 样本 对 标签 ， 接 下 来 更 新 度 
量 矩 阵 。 与 PCML 模型 不 同 的 是 ,在 更 新 度量 矩阵 的 过 程 中 ， 


N 


: 基于 数据 内 在 结构 特征 的 度量 和 


i 
I 
1 7 Ah y a 3 | 
是 一 一 | mm | 人 | | 
I} | as a | 1 
1} | i | i i 1 
| Á å o => es = | 
! | ee | | 提 芭 ”时 时 | 对 和 标签 ”| a | 更 新 过 程 ! 
1 | : | | i | i 1 
! | o | EE Eoo E i 
1 | H ! | 
| | = | 路 
| | | r 
a I 
! 。 输入 样本 集 x， 特征 向 量 p(x) 新 特征 向 量 | 
i ! 


ChinaXiv 合 作 期 刊 


第 38 卷 第 3 期 


基于 数据 内 在 结构 特征 的 度量 学 习 模型 进一步 考虑 了 相同 类 
别 样本 间 的 类 内 散 度 和 矩阵 ， 使 同一 类 别 间 的 样本 特征 靠 的 更 
加 紧凑 ， 这 样 使 得 学 习 到 的 度量 矩阵 鉴别 能 力 更 强 ， 从 而 提 
高 接 下 来 的 识别 任务 。 


图 1 本 文 提出 的 度量 学 习 模型 
Fig.1 The model of this paper proposed metric learning 


2.2 ”模型 的 求解 

为 了 减少 模型 的 计算 复杂 度 ， 本 文 使 用 了 梯度 下 降 技术 
求解 提出 的 模型 式 (8)。 有 具体 的 过 程 可 以 分 为 两 个 步骤 : a) 更 
新 SVM 中 超 平面 参数 w Alo; b) 更 新 度量 矩阵 MW 。 

1) 更 新 SVM 中 的 参数 w Fil b 

对 于 问题 式 (8) 的 求解 ， 可 以 转变 为 对 偶 优 化 问题 进行 求 
解 ， 也 可 以 使 用 梯度 下 降 技术 进行 求解 。 由 于 使 用 对 偶 优 化 
问题 求解 时 间 代 价 比较 高 ， 这 里 为 了 减少 模型 的 计算 开销 ， 
本 文 使 用 梯度 下 降 技术 对 问题 式 (8) 进 行 求解 。 根 据 文献 [28]， 
问题 式 (8) 可 以 转变 为 一 个 等 价 的 无 约束 优化 问题 : 


2n 
Lo b) = 5 w! Sw + CÙ max (0.1 ("8 +b) (11) 
i=l 


z= A 


其 中 : 表示 重新 组 合成 的 新 的 特征 向 量 。 文献 [29] 指 出 , 目 
标 函 数 Lw, b) 关于 参数 w AD 是 可 导 的 ， 因 此 可 以 通过 正常 
的 梯度 下 降 法 进行 求解 。 下 面 分 两 种 情况 进行 逐一 讨论 。 
首先 ， 当 4w?+5)<1 的 时 候 ， 此 时 目标 函数 L(w,5) 可 以 
转换 如 下 : 


Lw,b)= i wrSw+Cy |L-LWw +b) 
i=l 


f z (12) 
= w'Sw+C) (1-L(wT# +b) 
i=l 


式 (12) 可 以 化 简 为 
1+(w7X¥ +b) 
COw， .b)= 50 sw cy! arw | 


_1 l1+w w +b? + (13) 
YSw+ CY 
2bw7¥ —2l;wT č — 2l,b 


式 (12) 可 以 进一步 化 简 为 


1 2 TYYT 
a ee cel XX™w (14) 
+2Cbw! Xe — 2Cw" XY — 2Ce™ yb 
表示 特征 向 量 构建 的 矩阵 ， 
$ = [hi hasl] E R” 表示 样本 对 标签 组 成 的 向 量 , 并 且 。 为 单位 
向 量 。 pve 目标 函数 L(w,b) 关于 参数 w A b 的 偏 导数 可 以 分 
别 表示 为 


Š =[%,,%),. 


so ERI 


= Sw + 2CXX'" w + 2CbXe -2C 


(15) 
a = 2Cnb + 2Cw" Xe —2Ce" § 


其 次 ， 当 bow +b)>1 的 时 候 ， 目 标 函 数 Cow.d) 可 以 转 
换 为 


Lo", b) = w Sw (16) 
此 时 目标 函数 L(w,b) 关于 参数 w 和 2 的 偏 导 数 又 可 以 分 
别 表 示 为 
OL(w,b) =s 
ôw 
OL(w,b) = (17) 
Ob 


R, 依据 上 面 获得 的 目标 函数 关于 参数 w 和 4b 的 偏 导 
数 , 利 用 如 下 的 梯度 下 降 算 法 对 参数 w 和 4b 进行 更 新 直到 收敛 : 


OL(w,b) 
ig 
(18) 
hey Lw, b) b) 
ôb 


其 中 : 4 为 步 长 ， 也 称 为 学 习 率 。 

2) 更 新 度量 矩阵 M 

为 了 满足 度量 矩阵 半 正 定 的 约束 条 件 ， 每 次 利用 梯度 下 
降 算法 更 新 过 w Ab 后 ,还 需要 利用 w 对 度量 矩阵 M 进行 更 
新 。 具 体 过 程 如 下 : 首先 把 w 重新 组 合成 度量 和 矩阵 M ， 然 后 
为 了 保证 度量 矩阵 M 半 正 定 的 约束 条 件 ， 正 如 文献 [26]， 本 
文 也 在 每 一 次 迭代 中 将 度量 矩阵 W 向 半 正 定 锥 上 投影 的 运 
算 。 首 先 对 M 进行 特征 值 分 解 ， 转 换 为 如 下 
M = PAP" (19) 


其 中 : 4 是 度量 ER M 的 特征 值 组 成 的 对 角 和 矩阵 ，P 是 MM 的 
正 交 矩阵 。 其 次 执行 4 =max(4.0) ,最 终 投影 后 的 度量 矩阵 为 


M = PA,P" (20) 
这 里 M 就 是 最 终 更 新 后 的 度量 矩阵, 其 满足 了 半 正 定 的 
约束 条 件 。 综 合 以 上 模型 的 求解 过 程 ， 算 法 1 概括 了 数据 驱 
动 的 度量 学 习 的 模型 训练 过 程 : 
算法 1 基于 数据 内 在 结构 特征 的 度量 学 习 
输入 : 训练 样本 集 (yi =1, 2, 
输出 最终 学 习 得 到 的 度量 矩阵 M 
1) 初始 化 SVM 中 的 w 和 45， 惩罚 系数 C ， 收 敛 国 值 c ， 最 大 迭代 
次 数 了 7 ， 当 前 迭代 次 数 1=0 
2) repeat 
3) if |(wF+b)<1; 


n}, x, e R” 
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数 的 有 效 性 ， 本 文 也 在 PenDigits 手写 数字 识别 


E， 实 验 中 的 参数 C 和 & 的 设 定 依据 


录用 定稿 张 开 放 ， 等 : 基于 数据 内 在 结构 特征 的 度量 学 

4) 通过 式 (15) 计 算 w OA D 偏 导数 norm 损失 函 

5) else 数据 集 上 进行 了 实验 验证 
6) 通过 式 (17) 计 算 w AL b 偏 导数 3.1 节 中 的 调查 结果 ， 并 且 乡 
7) 利用 计算 得 到 的 偏 导数 通过 式 (18) 更 新 SVM 

HAW FD; 

8) 通过 式 (28) 更 新 度量 矩阵 MM ; 

9) 1=1+1; 

10) until 满足 停止 条 件 ( 相 邻 两 次 迭代 的 目标 函数 值 的 差 小 于 收 伊 


BUE O 或 者 当前 迭代 次 数 上 大 于 最 大 迭代 次 数 7 ， 


11) return 度量 矩阵 M 


2.3 分 类 方法 


见 


进行 分 类 。 给 定 
本 点 周转 


且 获 得 最 终 学 习 的 度量 矩阵 ， 
定 一 个 测试 样本 ， 首 先 
最 近 的 个 邻近 样本 点 。 然 
点 的 标签 信息 ， 这 些 标签 


本 点 最 终 预测 的 标签 。 


3 
为 了 验证 


法 中 的 大 对 模型 


实验 设计 与 分 析 


本 文 所 提 
行 了 综合 性 的 实验 , 第 一 


分 在 人 脸 识 别 任 


务 È 验证 


出 的 度量 
部 分 验证 了 惩 
性 能 的 影响 ， 同 时 分 析 了 模型 的 | 
二 部 分 本 文 在 手写 数字 识别 任务 上 验证 模型 的 性 能 。 


模型 的 性 能 。 最 后 在 行 


接 


来 使 用 


学 习 模 和 


VHS RE 
后 统计 该 
PF 同 时 属于 最 多 的 类 别 


4 的 


KNN 


迭代 过 程 终 止 ) 


算法 


J 效 性 ， 


W 


TENA 
个 邻近 样本 
就 是 测试 样 


本 节 进 


T RŽ C 以 及 KNN 算 
ACO HE 


第 
第 三 部 


能 。 


任务 上 验证 模型 的 性 


ab 


Core(TM) i7-7700 CPU @3.6GHz 的 64 


hig, MATLAB R2016b。 


3.1 


MSM, ME 


PenDigits 手写 数字 识别 


能 .此 外 ,本 文 实验 平 


模型 参数 对 识别 率 的 影响 


台 为 处 理 


正如 PCML 模型 ， 本文 提 


出 的 度量 学 


学 习 模 型 
罚 系 数 C 以 及 KNN 算法 
数据 集 B0 上 综合 调查 了 


PAY k 


人 重 识别 的 
器 Intel(R) 
iz Windows 10 企业 


IBAA 2 个 
。 本 文 在 
参数 C 和 


识别 率 (%) 


吉 果 报告 了 10 次 平均 识别 率 。 


图 


and the convergence curve of the proposed model 


30 40 


20 
迭代 次 数 
(b) 

2 参数 C Ak 对 识别 率 的 影响 以 及 模型 的 收敛 


Fig.2 The influence of parameters C and k on the recognition rate 


对 识别 准确 率 的 影响 ， 进 而 选择 个 相对 比较 好 的 C 和 大。 表 1 列 出 了 模型 分 别 设 定 为 Li-norm 损失 函数 和 Lo-norm 
PenDigits 数据 集 包 含 了 0~9 FE 10 个 类 别 的 10992 hee 损失 函数 下 的 识别 率 ， 从 中 可 以 发 现 ， 相 比 于 模型 选择 Li- 
该 数据 集 里 是 已 经 处 理 过 的 图 像 特征 共 16 维 。 实 验 中 选取 norm 损失 函数 ， 当 模型 选择 Lo-norm 损失 函数 的 时 候 ， 模 型 
7494 个 样本 作为 训练 集 ， 剩 下 的 3498 个 样本 作为 测试 集 ， 的 识别 率 提升 约 0.4%， 实 验 结果 表明 ， 本 文 提出 的 模型 L- 
分 别 设 定 参 数 C 和 的 范围 为 {103,102,10-1,10%,101,1023,103} ”norm 损失 函数 可 以 进一步 提升 模型 的 泛 化 性 能 。 
和 {1,2,3,4,5,6,7} ,此 外 ,为 了 使 模型 尽 可 能 收敛 到 最 优 的 解 ， 表 1 模型 在 Li-norm 损失 函数 和 L2-norm 损失 函数 下 的 识别 率 
本 文采 用 了 学 习 率 衰减 的 策略 ,设置 最 大 迭代 次 数 为 50， 若 Tab.1 The recognition rates of the model on 
迭代 次 数 1<10, 则 学 习 率 = 0.001 ; FF 10<1 <30, J] «=0.0001 , Li-norm loss function and L2-norm loss function 1% 
Fi 30<1<50, Sil] «¢=0.00001 , 损失 函数 Li-norm 损失 函数 Z2-norm 损失 函数 

图 2(a) 报 告 了 模型 参数 c 和 大 对 识别 准确 率 影 响 的 柱状 识别 率 98.05 98.42 
图 .从 图 中 可 以 明显 看 出 , 当 惩 罚 系 数 C=10 和 k=3 的 时 候 ， 3.3 手写 数字 识别 
模型 的 获得 了 最 好 的 识别 准确 率 。 对 于 惩罚 系数 Cc 的 取 值 ， 为 了 验证 模型 的 有 效 性 , 本 小 节 在 USPSB0, PenDigits 和 

可 以 发 现 过 小 或 者 过 大 的 惩罚 系数 都 会 降低 模型 的 识别 准确 。 MNISTB3 共 3 个 手写 数字 识别 数据 集 上 进行 实验 分 析 , 这 些 
率 。 分 析 其 原因 ， 首 先 ， 过 小 的 惩罚 系数 会 使 得 模型 过 度 关 ”数据 集 里 全 都 是 包含 了 0~9 共 10 个 类 别 的 数字 。USPS 数据 
注 正 确 识 别 的 样本 ,使 得 模型 不 外 EE 正确 修正 错误 识 办 I 的 样本 。 ” 集 由 7291 个 训练 样本 和 2007 个 测试 样本 组 成 ， 其 中 每 个 样 
其 次 ， 过 大 的 惩罚 系数 使 得 模型 过 多 的 关注 被 错误 识别 的 样 ” 本 的 特征 维度 是 256。PenDigits 数据 集 的 描述 正如 3.1 节 。 
本 ， 和 迫使 模型 拟 合 更 复杂 的 网 络 参数 以 尽 可 能 多 的 修正 被 错  MNIST 数据 集 包 含 60000 个 训练 样本 和 10000 个 测试 样本 ， 
分 的 训练 样本 ， 这 无 疑 增加 了 模型 的 优化 难度 ， 同 时 导致 模 。 每 个 样本 的 特征 维度 是 784。 此 外 ， 本 文 与 8 个 经 典 的 度量 
型 容易 出 现 过 拟 合 的 现象 。 对 于 的 取 值 , 过 小 或 者 过 大 的 取 ”学 习 算 法 进行 对 比 实验 ， 其 中 包括 ITMLU3，LDMLB3]， 
值 同 样 会 降低 模型 的 识别 准确 率 。 综 合 以 上 分 析 ， 在 接 下 来 ” LMNNU?I, DML-eigB4, PLML[35], Doublet-SVMB9, PCMLP9l 
的 所 有 实验 中 设置 参数 C=4 和 k=3。 和 NCMLP9 。 

此 外 ,本 文 也 分 析 了 模型 的 收敛 性 , 图 2(b) 报告 了 模型 在 实验 中 ， 由 于 USPS 和 MNIST 数据 集 的 样本 维度 比 
的 目标 函数 值 随 着 迭代 次 数 变 化 的 曲线 。 从 图 中 可 以 发 现 ， 较 高 ， 为 了 提升 运算 效率 ， 正 如 文献 [26]， 本 文 也 使 用 PCA 
大 约 经 过 30 次 的 迭代 优化 之 后 ， 模 型 的 目标 函数 值 趋 于 稳 、。 算法 将 样本 特征 维度 降低 到 100。 此 外 实验 中 的 参数 C 和 大 
定 的 状态 ， 结 果 充 分 表明 了 本 文 所 提出 度量 学 习 模 型 是 收 化 。 的 设 定 依据 3.1 节 中 的 调查 结果 ， 同 时 对 数据 集中 的 所 有 样 
的 ， 这 为 接 下 来 的 实验 提供 了 坚实 的 基础 。 本 进行 了 归 一 化 处 理 。 表 2 列 出 了 本 文 提出 的 算法 以 及 其 他 
3.2 L1-norm 损失 函数 和 L2-norm 损失 函数 结果 对 比 的 算法 在 3 个 手写 数字 识别 数据 集 上 运行 10 次 的 平均 识别 

为 了 说 明 本 文 提出 的 模型 采用 Znorm 损失 函数 替代 Zi- ”准确 率 ， 从 中 表 中 可 以 发 现 ， 本 文 提出 的 算法 取得 了 最 好 的 


we 


张 开 放 ， 等 : 基于 数据 内 在 结构 特征 的 度量 学 习 


及 训练 时 间 


KT 
识别 准确 率 。 与 PCML 算法 相 比 , 本 文 算法 提升 了 约 0.6% 的 
识别 准确 率 ， 这 充分 说 明了 简单 的 考虑 不 同类 别 样本 间 的 最 
大 间隔 限制 了 模型 E 确 率 ， 通 过 整合 同类 样本 间 的 类 
散 度 和 矩阵 ， 使 同类 村 以 进一步 提升 模型 的 识别 准确 率 。 
表 2 不同 算法 在 3 个 手写 数字 识别 数据 集 上 的 识别 率 


Tab.2 The recognition rates of different algorithms on 


BED 
SAM ， 
间 的 最 大 间隔 和 村 
以 进一步 提升 度量 
Ikik, MKH 


少 了 


three handwritten digit datasets 1% 
算法 USPS PenDigits MNIST 

ITML 93.68 97.70 97.12 
LDML 94.88 97.68 93.96 
LMNN 94.66 97.77 97.72 
DML-eig 94.56 96.30 94.92 
PLML 93.25 97.57 97.48 
Doublet-SVM 94.57 97.57 96.81 
PCML 94.68 97.85 96.25 
NCML 94.70 97.87 97.45 
本 文 算法 95.11 98.33 97.98 


这 说 9 
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。 从 表 中 可 以 看 出 ， 相 比 其 他 算法 ， 本 文 提出 的 
得 了 最 好 的 识别 率 ， 相 比 于 与 PCML 和 NCML 提高 
本 文 提出 模型 在 同时 考虑 不 同类 别 样本 之 
上 同类 别 样本 之 间 的 类 内 散 度 的 情况 下 ， 可 


E 阵 的 鉴别 能 力 ,从 而 提升 模型 的 识别 率 。 


还 可 以 发 现 ， 本 文 提 出 的 算法 的 训练 时 间 明 显 
F ITML, DML-eig, PCML 和 NCML, 多 于 KISSME, 

XQDA 和 Doublet-SVM, 4 Doublet-SVM 和 KISSME 是 
一 次 优化 方法 ，XQDA 是 一 个 子 空间 方法 ， 本 文 提出 的 方法 
使 用 了 梯度 下 降 技 术 直 接 对 原 问 题 进行 了 优化 ， 所 以 它们 可 
以 获得 更 短 的 训练 时 间 。 以 上 分 析 再 次 论证 了 本 文 提出 的 算 
法 相 比 于 PCML 算法 不 仅 提 升 了 识别 准确 率 , 而 且 可 以 进 一 
步 提 升 模型 的 计算 效率 。 
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IV 


此 外 ， 图 3 展示 了 本 文 提 出 的 算法 和 其 他 算法 分 别 在 3 


个 手写 数字 识别 数据 集 上 的 训练 时 间 ， 从 图 
文 提出 算法 在 USPS 和 PenDigits 数 
SVM, 在 MNIST 数据 集 上 了 本 文 提出 的 算法 取 


高 于 Double- 


KEE 


ar 


中 可 以 发 现 ， 本 
上 的 训练 时 间 仅 仅 


| 


ina 


ch 


得 了 最 短 的 训练 时 间 。 重 要 的 是 ， 本 文 提出 的 算法 在 所 有 的 
数据 集 上 训练 时 间 明 显 低 于 PCML 算法 , 分 析 其 原因 ， 在 求 
解 度量 矩阵 时 ， 本 文 提 出 的 方法 直接 使 用 了 梯度 下 降 方法 来 
优化 度量 和 矩阵， 而 PCML 把 原 问题 转换 成 了 对 偶 问题 ， 通 过 
求解 对 偶 问题 来 获得 度量 和 矩阵， 这样 增 加 了 时 间 消 耗 。 实 验 
结果 进一步 表明 本 文 提 出 的 方法 可 以 提升 模型 的 计算 效率 。 
° E. 
4b | Hom 
-vnn 
g 3 上 J 国 w-。。 
= Miro 
Š a} J H pouvie-svm 
rcm 
1 [ncm 
国 本 文 算法 
USPS PenDigits MNIST 
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图 3 不 同 算法 在 3 个 手写 数字 识别 数据 集 上 的 训练 时 间 


Fig.3 The training time of different algorithms on 


three handwritten digit datasets 
3.4 人 脸 识别 
步 验 订 


为 了 进 


常用 的 数据 集 ， 它 包含 
面部 ， 其 中 1680 人 有 
尺度 、 姿 势 、 光 线 、 
时 这 些 人 脸面 部 是 在 野外 场景 
有 挑战 性 。 此 外 ， 该 数据 集 提供 了 5400 对 
300 对 正 、300 对 
在 实验 中 , 为 了 获取 人 脸 图 像 
的 处 理 方式 ， 本 文 也 
估算 法 的 识别 准确 率 ， 
(4096)， 本 文采 月 
验 中 的 参数 C 和 大 的 设 定 依 和 
个 算法 本 文 统计 了 10 次 识别 ; 


Ee FY A A 
BS LFWB71 上 进一步 实验 分 析 。LFW acy 
了 5749 人 的 13233 3 


Ee， 本 小 节 在 大 型 人 脸 识别 
集 是 人 脸 识别 
带 标签 的 人 脸 


表 3 不 同 算法 在 LFW 数据 集 上 的 识别 率 
Tab.3 The recognition rates of different algorithms on LFW dataset /% 
算法 识别 率 训练 时 间 
ITML (VGG-Face) 96.37 194.92 
DML-eig(VGG-Face) 256.24 
KISSME(VGG-Face) 0.05 
XQDA(VGG-Face) 0.10 
Doublet-SVM(VGG-Face) 0.39 
PCML(VGG-Face) 9.15 
NCML(VGG-Face) 9.88 
本 文 算法 (VGG-Face) 7.02 


3.5 行人 重 识 别 


最 后 , 本 小 节 在 CUHKO1M AN 
识别 数据 集 上 进一步 验证 模型 的 有 效 怕 


包含 971 位 行人 的 3,884 KA 


CUHKO344£ 2 个 行人 重 
E. CUHK01 数据 集 


的 2 台 摄 像 机 拍摄 的 ， 其 中 每 个 行人 在 每 个 j 
均 有 2 张 图 像 。CUHK03 数据 集 共 包 含 1476 位 行人 的 14096 
mR, 这 些 图 像 同样 是 由 CUHK 校 
的 ， 其 中 每 位 行人 在 每 个 摄像 头 下 面 平均 有 4~8 KAR. A 


CUHK 校园 
BBL FTE 


人 台 摄 像 机 拍摄 


外 ，CUHK03 提供 了 labeled 和 detected 两 个 数据 集 ， 本 文 


对 这 两 个 数据 集 分 别 进行 了 实验 。 
在 实验 中 ， 对 于 


据 集中 的 


包含 了 485 人 的 
W, R 


F CUHK01 数据 集 ， 正 如 PCML， 训 练 全 


mt 


TR, EME AUR EMIX TBE EP BEL EH 
的 图 像 构成 了 测试 集 。 对 于 CUHK03 数 ] 
的 处 理 方式 ， 本 文 随机 选择 1367 人 的 图 像 


下 的 486 人 
长 ， 参 考 文 献 [24] 


H xX 


作为 训练 集 ,并 使 


所 有 村 


JER 100 人 的 图 像 作 为 测试 集 。 此 外 实验 
中 的 参数 C 和 的 设 定 依 据 3.1 节 中 的 调查 结果 ， 同 时 对 数 
本 进行 了 归 一 化 处 理 。 此 外 对 于 所 有 的 算法 ， 


为 了 获取 有 效 的 特征 表示 来 提升 模型 的 识别 准确 率 ， 参 考 文 


缺 [26] 处 理 方式 ， 本 文 也 提取 了 行人 图 像 的 LOMO REI, 


| 负 进 行 测试 。 


人 脸 图 像 


j 时 1 
H PCA 算法 把 打 


局 3.1 


Ph 拍摄， 致使 该 数据 集 非 常 
| 人 脸 图 像 进行 j 


Éj VGG-F 
于 VGG-Face 特 行 
正 维度 降低 到 50。 此 外 ， 实 
节 中 的 调查 结果 ， 对 于 每 


了 效 的 特征 , 参考 文献 [24] 


张 或 更 多 的 面孔 。T 由 于 面部 在 ”实验 中 本 文 与 8 个 
景 、 表 情 、 发 型 和 眼镜 上 的 变化 ， 同 


具有 代表 性 的 度量 学 习 算 法 进行 了 对 比 实 
i, 其 中 包括 LMNN, LDML, DML-eig, KISSME, XQDA, 
PCML, Doublet-SVM 和 NCML. 


表 A~6 报告 了 本 文 提 出 的 算法 以 及 其 他 的 算法 在 2 个 行 


人 重 识别 数据 肌 


ace 特征 B8 来 评 


维度 比较 高 


准确 率 。 这 里 与 8 个 经 


法 进行 了 对 


的 算 


ITML, DML-eig, 
PCML 和 NCML。 


KISSME! 


, XQDA 


报告 了 平均 识别 


39 


比 实验 ， 其 中 包括 
Doublet-SVM, 


# 3 列 出 了 不 同 算法 在 LEW 数据 集 上 的 识别 准确 率 以 


3 可 以 知 


法 的 识别 
W, Æ 


时 间 1 


上 运行 10 次 的 平均 识别 准确 率 。 从 表 中 还 
可 以 发 现 ， 本 文 提出 的 算法 获得 了 最 好 的 模型 识别 率 。 从 表 
道 ， 相 比 了 


F PCML ， 本 文 算法 的 识别 率 上 提高 了 约 


1.5%。 从 表 4~5 中 可 以 知道 ， 相 比 于 PCML， 本 文 提出 的 算 
率 提高 了 约 1.2%。 此 外 ， 从 表 4~6 中 可 以 进一步 发 
练 时 间 上 ， 本 文 提出 的 算法 多 数 情况 下 获得 了 最 短 
的 训练 时 间 ， 仅 仅 在 CUHK01 数据 集 上 的 训练 时 间 高 于 
XDQA 算法 。 然 而 重要 的 是 ， 相 比 于 PCML， 本 文 提出 的 方 
法 训练 时 间 缩 短 了 很 多 , 例如 表 4 中 本 文 提出 的 算法 的 训练 
56.3 秒 , PCML 的 训练 时 间 482.65 秒 , 其 中 PCML 通 
过 求解 对 侦 问 题 来 优化 度量 矩阵 ， 而 本 文 提出 的 算法 直接 对 
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原 问 题 利用 梯度 下 降 法 进行 优化 ， 这 样 避 免 了 求解 对 偶 问题 ”本 之 间 的 类 内 散 度 和 矩阵 ， 可 以 使 和 
带 来 了 更 多 的 时 间 开 销 。 以 上 的 实验 结果 再 一 次 说 明 本 文 担 ”的 鉴别 能 力 ， 进 而 提升 模型 的 识别 准确 率 ， 而 且 还 可 以 进 
出 算法 通过 整合 不 同类 别 样本 之 间 的 最 大 间隔 和 相同 类 别 样 ”， 步 提升 模型 的 计算 效率 。 

表 4 不 同 算法 在 CUHK01 数据 集 上 的 识别 率 以 及 训练 时 | 


Tab.4 The recognition rates and the training time of different algorithms on CUHK01 dataset 


a 


算法 Rank-1/% Rank-5/% Rank-10/% Rank-20/% 训练 时 间 /s 
LMNN(LOMO) 55.28 83.45 89.21 97.86 2558.60 
LDML(LOMO) 51.36 77.69 87.35 96.24 63.42 

DML-eig(LOMO) 51.31 81.96 91.56 98.04 3330.8 
ITML (LOMO) 57.38 82.41 90.24 97.16 4342.31 
XQDA(LOMO) 63.18 85.04 91.87 97.68 15.47 

Doublet-SVM(LOMO) 51.58 76.56 86.23 93.46 22.18 
PCML(LOMO) 61.56 84.02 90.32 98.07 33.31 
NCML(LOMO) 61.73 84.43 90.56 98.19 58.30 

本 文 算法 (LOMO) 63.68 85.24 91.96 98.96 16.83 


表 5 不 同 算法 在 CUHK03 中 的 labeled 训练 集 上 的 识别 率 以 及 训练 时 间 
Tab.5 The recognition rates and the training time of different algorithms on labeled training set in CUHK03 


算法 Rank-1/% Rank-5/% Rank-10/% Rank-20/% 训练 时 间 /s 
LMNN(LOMO) 50.96 80.53 89.01 94.96 7896.25 
T LDML(LOMO) 51.18 81.96 89.85 95.24 732.42 
= DML-eig(LOMO) 17.96 50.26 66.78 84.35 496.75 
ITML (LOMO) 46.86 80.06 88.24 90.28 1135.27 
XQDA(LOMO) 52.23 83.42 90.56 95.84 862.3 
Doublet-SVM(LOMO) 51.35 82.14 90.08 95.64 198.36 
PCML(LOMO) 53.26 84.05 91.02 96.85 482.65 
NCML(LOMO) 53.45 84.36 91.24 97.01 584.28 
本 文 算法 LOMO) S4.18 85.28 91.56 97.31 156.3 


#6 不 同 算法 在 CUHKO3 中 的 detected 训练 集 上 的 识别 率 以 及 训练 时 间 


Tab.6 The recognition rates and the training time of different algorithms on detected training set in CUHK03 


算法 Rank-1/% Rank-5/% Rank-10/% Rank-20/% 训练 时 间 /s 
LMNN(LOMO) 44.58 77.85 85.84 88.09 7896.25 
LDML(LOMO) 45.36 78.29 86.56 89.13 732.42 

DML-eig(LOMO) 14.08 42.68 60.58 82.36 496.75 
ITML (LOMO) 44.16 78.06 86.24 90.11 1135.27 
XQDA(LOMO) 46.18 80.28 87.58 90.56 862.3 
Doublet-SVM(LOMO) 45.24 79.25 86.76 89.25 198.36 
PCML(LOMO) 46.18 80.09 87.24 89.78 482.65 
NCML(LOMO) 46.88 80.35 87.57 90.12 584.28 
本 文 算法 LOMO) 47.83 81.23 88.88 90.78 156.3 
4 结束 语 Similarity Learning-Based Robust Visual Tracking [J]. IEEE Access， 
2019: 50466-50475. 

PCML 算法 仅仅 考虑 了 不 同类 别 样本 之 间 的 最 大 间隔 ， [2] Zhang Shengping, Qi Yuankai, Jiang Feng et al. Point-to-Set Distance 
忽略 了 每 一 次 迭代 过 程 中 同一 类 别 间 的 样本 特征 空间 的 也 在 Metric Learning on Deep Representations for Visual Tracking [J]. IEEE 
发 生变 化 ， 这 样 限 制 了 模型 泛 化 能 力 。 基 于 此 ， 本 文 提出 Transactions on Intelligent Transportation Systems, 2017: 1-12. 

种 FBS 于 数据 内 在 结构 Hae 上 的 EE 学 >J 算法 该 算法 不 仅 考 [3] Ramos J, Kockelkorn T, Ramos I, et al. Content-Based Image Retrieval 
虑 不 同类 别 样本 之 间 的 最 大 间隔 ， 而 且 相 同类 别 样本 之 间 的 by Metric Learning From Radiology Reports: Application to Interstitial 
类 内 散 度 o 在 手写 数字 识 别 ， 人 脸 识 别 ， 行 人 重 识 别 三 个 任 Lung Diseases [J]. Biomedical and Health Informatics, 2016, 20 (1): 281- 
务 上 的 实验 结果 表明 ， 本 文 提出 的 算法 最 终 学 习 到 的 度量 甜 292. 

阵 有 更 强 的 鉴别 能 力 ， 取 得 了 更 高 的 识别 准确 率 。 [4] Yu Jun, Yang Xiaokang, Gao Fei, et al. Deep Multimodal Distance Metric 
然而 ， 虽 然 本 文 所 提出 的 算法 取得 了 较 好 的 性 能 ， 但 仍 Learning Using Click Constraints for Image Ranking [J]. IEEE 

存在 一 些 问 题 。 一 方面 ， 正 如 PCML， 本 文 提出 的 算法 也 需 Transactions on Cybernetics, 2016: 1-11. 

要 手动 的 设 定 惩罚 系数 和 近邻 参数 。 另 一 方面 ， 本 文 提出 的 [5] Guillaumin, Matthieu and Verbeek et al. Multiple instance metric 

算法 利用 了 和 迭代 优化 策略 去 求解 优化 问题 ， 这 并 不 能 保证 求 learning from automatically labeled bags of faces [C]// Proc of European 

得 的 解 是 全 局 最 优 解 。 因 此 ， 在 未 来 的 工作 中 ， 本 文 将 进 Conference on Computer Vision, 2010: 634-647. 

Bit 论 如 何 解决 这 些 问题 。 [6] Cai Lipeng, Ying Shihui, Peng Yaxin, et al. Intrinsic Metric Learning 


with Subspace Representation [J]. IEEE Access, 2019: 1-1. 
[7] Bac N, Ferri F J, Carlos M, et al. An efficient method for clustered multi- 
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